很多高考政策或者学校招生信息,都收录在相关机构和院校的官网里。但是有一个潜在问题,这些官网和机构,在市场上并不是“知名站点”。传统的通用搜索引擎很可能因为它是一个小站点,或者平时用户量少,相关数据收录就比较少。因此,我们在这上面投入了大量的人力,把各种网站里的专业资料、政策都搜集进来。

夸克高考技术负责人唐亮:高考问答我们每年都会做,在去年基础上,今年我们重点强调高考的专业知识库概念。专业知识库我们总共搜集了8000多个站点,大概覆盖了20多亿数据,高考相关的权威站点占比99%以上。对这8000多个站点,我们内部也会有些分层,比如有些像考试院、教育部、招生办这部分肯定是政策相关最权威的。

还有一个是“政策库”。每年志愿填报可能都会不间断地出些新政策,我们也会人工实时更新,通过人工与组织监控的方式,补足到政策库里,让整体数据可以有详细更新。非H5网页部分,我们会把整个高考高校近三年的就业数据、考研数据和招录体检要求等信息,包括政府报告、行业研究分析收集进来。基本涵盖了市面上所有的数据。

媒体提问:有设计保障措施吗,从而进一步保障数据准确性?

唐亮:对于从各个渠道拿到每个省的招生计划以及历年分数线,这部分数据我们差不多有七年时间的积累。这里面主要核心工作是两大部分:一部分是数字对齐,用算法、用大模型去做招生计划和分数线的对齐;另一部分是通过上百人的人工审核方式,对那些“不置信的内容”进行人工审核。

媒体提问:高考志愿填报所用到的大模型,和传统的通用大模型有哪些区别?

唐亮:获得海量权威数据之后,我们要把它应用在高考志愿大模型里。这里主要有两个地方会应用到,第一个是作为RAG(Retrieval-Augmented Generation,检索增强生成,旨在解决传统大模型幻觉问题和知识滞后性局限)材料内容供给,我们做材料结合时,会强调材料来源是高时效、高权威。

第二个方面,我们会把这些数据应用到高考志愿大模型的训练当中,让它们作为训练语料,帮助模型打磨这部分知识。在模型训练时,我们会做大量的思路性校验、数字校验、实时性校验等,相比通用模型有效降低幻觉率。

新澳门彩天天正版免费
新澳免费资科大全
全年免费资料大全
澳门天天彩大全
新澳门正版免费

地图